Op deze pagina vind je een demonstratie van een statistische techniek aan de hand van een voorbeeld.

Meer informatie over hoe je deze pagina kan gebruiken vind je in deze handleiding.

De analyse gebeurt met behulp van R en RStudio. Een inleiding tot deze software vind je hier.



1 Doel

De bedoeling is om informatie te verkrijgen over de dataset: hoeveel data zit erin? Hoeveel variabelen en hoeveel observaties zijn er? Welke soorten variabelen? Zijn er ontbrekende data?



2 Voorbeeld

De dataset enquete bevat gegevens van 14 variabelen geobserveerd bij 42 Amerikaanse studenten die een vak statistiek volgen.

Deze dataset kan je inladen met read.csv(). De data kan je best meteen in een object enquete onderbrengen zodat je die later makkelijk opnieuw kan oproepen.

enquete <- read.csv("https://statlas.ugent.be/datasets/enquete.csv")



3 Welk soort R-object is het?

In R bestaan veel verschillende soorten objecten. Voorbeelden zijn vectoren, dataframes, lists en matrices.

Data die van buitenaf worden geïmporteerd komen vaak als dataframe in R terecht - zoals in dit geval enquete. Je kan het type object opvragen met class().

class(enquete)
[1] "data.frame"


Een dataset in de vorm van een dataframe is in veel gevallen ideaal: het is de meest overzichtelijke en handige manier om met data aan de slag te gaan in R.



4 Hoe groot is je dataset?

De omvang van een dataset, als die netjes in een dataframe vervat zit, kan je makkelijk opvragen met de functie dim().

dim(enquete)
[1] 42 14


Het eerste getal in de output slaat op het aantal rijen, dus in dit geval op het aantal bevraagde studenten. Je kan dit apart selecteren met dim(enquete)[1].

Het tweede getal gaat over het aantal variabelen dat geobserveerd werd. Met dim(enquete)[2] kan je deze waarde apart opvragen.



5 Soorten variabelen in de dataset

Met str() krijg je een overzicht van de variabelen in de dataset. Er staat telkens ook bij om welk type data het gaat: chr, num, int, enz.

str(enquete)
'data.frame':   42 obs. of  14 variables:
 $ X          : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Section    : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Class      : chr  "Senior" "Freshman" "Freshman" "Freshman" ...
 $ Sex        : chr  "F" "F" "F" "M" ...
 $ Distance   : int  400 450 3000 100 2000 500 1100 1000 400 450 ...
 $ Height     : int  62 61 61 72 69 73 60 71 70 75 ...
 $ Handedness : chr  "Right" "Left" "Right" "Right" ...
 $ Coins      : num  1.12 29 1.5 0.07 0.12 8 0.77 0 0 0 ...
 $ WhiteString: int  42 45 22 40 48 30 50 45 38 36 ...
 $ BlackString: int  6 5 4 4 7 8 0 6 0 12 ...
 $ Reading    : num  80 100 100 50 200 100 200 100 100 100 ...
 $ TV         : num  3 10 4 25 5 0 2 2 20 20 ...
 $ Pulse      : int  71 78 80 63 63 56 72 66 54 48 ...
 $ Texting    : int  3 100 2 200 100 1 50 30 40 25 ...



6 Zijn er ontbrekende data?

Mogelijk heeft niet elke bevraagde student op elke vraag van de enquête geantwoord. Dan zullen er in je dataset ontbrekende gegevens (in het Engels: “missing data”) te vinden zijn. In R krijgen die een specifieke waarde, namelijk NA.

De functie is.na() laat je toe om op zoek te gaan naar ontbrekende gegevens in je dataset.

Meer informatie over ontbrekende data vind je via deze link.